Los modelos LLM open source permiten ejecutar modelos avanzados directamente en tu PC, sin depender de la nube y con total control sobre privacidad y personalización. Hoy existen opciones potentes y accesibles para cualquier usuario doméstico, y con diferentes tamaños para adaptarse a tu hardware.
Índice de contenidos
Te puede interesar conocer cuáles son las mejores tarjetas gráficas para IA
Cómo elegir un LLM de código abierto para ejecutar en local
Elegir un LLM local no es fácil, especialmente para algunos que son nuevos en este mundillo de la IA. Para saber cómo buscar el adecuado, es importante conocer ciertos parámetros que debes mirar de un modelo antes de elegir:
Tamaño del modelo y número de parámetros
El primer parámetro crítico es el tamaño del modelo, medido en número de parámetros. Lo identificarás fácil porque es un número seguido de una letra M (millones) o B (billones americanos, es decir, miles de millones para los europeos). Mientras mayor sea, más «inteligente» o capaz será el modelo. Por ejemplo, podemos ver modelos de 7B, 13B y 70B, por supuesto, el 70B sería el más complejo, pero cuidado, ya que no siempre te interesa uno tan grande, ya que mientras más capacidad de razonamiento y comprensión, más capacidad de memoria RAM y VRAM necesitarás para su ejecución. Además, los modelos más pequeños no solo requieren un hardware más modesto, sino que son también más rápidos para tareas sencillas.
Si cuentas con una CPU y GPU modesta o integrada, y con poca RAM, mejor elige modelos pequeños como 7B. Si tienes un hardware top, con una CPU con NPU de las últimas, y una tarjeta gráfica de alta gama, entonces puedes elegir algo más intermedio. En cambio, para modelos superiores a 70B o 100B, solo existe la opción de usar HPC.
Es un poco complicado dar datos exactos, pero para que te hagas una idea, cada 1B puede requerir en torno a en torno a 1GB de VRAM, y eso habría que multiplicarlo por 2 o 3 para calcular la RAM necesaria, lo cual sería entre 2 y 3GB de RAM en este caso.
Conforme aumenta el tamaño, también necesitarás más capacidad de almacenamiento para descargar el modelo completo, desde unos cientos de Megas, hasta decenas o centenares de GB en tu disco duro…
Arquitectura del modelo
La arquitectura define cómo procesa la información el modelo. En este caso, hay que analizar el tipo, si es decoder-only, encoder-decoder, o híbrido. También la eficiencia interna, capacidad de contexto o longitud máxima de ventana y la optimización para razonamiento que tenga. Esto puede ser complejo para principiantes y no tan principiantes, puesto que implicaría analizar el modelo más profundamente. Pero dependerá del tipo de tareas que quieras ejecutar localmente con el modelo LLM.
Las arquitecturas más densas consumen mayor cantidad de recursos de hardware, es decir, necesitarán más VRAM, ancho de banda, y TFLOPS. Como regla, si tienes un hardware más modesto, elige un modelo decoder-only, y si tienes hardware superior encoder-decoder o híbrido.
Ventana de contexto (context length)
La ventana de contexto determina cuántos tokens puede procesar el modelo simultáneamente. Cuanto mayor sea la ventana, mejor para el análisis de documentos largos o para analizar muchos datos a la vez. Por supuesto, mientras más grande, más consumo de memoria tendrá, aunque existen algunos modelos que usan compresión de contexto o atención selectiva para reducir las necesidades de memoria.
Se mide en tokens. La memoria caché necesaria aumenta linealmente con el aumento de tokens por ventana, mientras que las necesidades de VRAM aumentan de forma longitudinal del contexto. Por lo general, por cada duplicación de ventana se puede aumentar el uso de entre 30-60% el uso de VRAM. No obstante, si te parece complejo, encontrarás los requisitos necesarios de los modelos más populares…
Cuantización y formatos de ejecución
La cuantización permite ejecutar modelos grandes en hardware limitado reduciendo la precisión numérica. Se mide en bits por peso (4-bit, 5-bit, 8-bit,…), y tiene un impacto directo en la forma de procesar los datos, algunas pueden degradar más el rendimiento que otras, y de ello dependerá también la compatibilidad del hardware (CPU, NPU, GPU,…), ya que no todas soportan en su ISA trabajar con estos tamaños de datos. Además, tenemos formatos soportados diferentes, como GGUF, ONNX, Safetensors, etc.
En este caso, mientras mayor sea la cuantización, menos tamaño de VRAM necesitará el modelo y también menos memoria RAM necesita. Por ejemplo, 4-bit puede reducir el uso de VRAM hasta en un 75% en algunos casos respecto a 16-bit, y un 8-bit puede reducirlo en torno al 50%. Eso sí, mientras más pequeño, se aumentará las necesidades de tráfico de datos, lo que implica tener un buen ancho de banda…
Vigila también la compatibilidad con tu hardware, no solo según los recursos disponibles, también la compatibilidad con aceleradores CUDA, ROCm, DirectML, etc., ya que no todos son compatibles con todos…
Rendimiento en inferencia
El rendimiento no depende solo del tamaño del modelo, sino también de los tokens por segundo capaces de procesar, la optimización del motor de inferencia que se use, batching y paralelización del modelo, y eficiencia de su arquitectura. Por lo general, un modelo más pequeño bien optimizado podría incluso superar a un modelo grande y mal implementado.
Como regla para la elección, con una GPU que pueda tener más de 10 TFLOPS y más de 400 GB/s de ancho de banda, la inferencia será fluida. Por debajo de eso, la inferencia es lenta…
Calidad del modelo (benchmarks)
Para evaluar la calidad, se utilizan benchmarks estandarizados, como se usan para el hardware. Estos benchmarks especializados para comparar modelos LLM se basan en medir el razonamiento lógico, comprensión de lenguaje, matemáticas, codificación, y conocimiento general. Por ejemplo, se pueden encontrar puntuaciones normalizadas tipo 0-100, en tanto por ciento %, F1, BLEU, etc. Puedes encontrar resultados de benchmarks en la red si quieres comparar modelos…
Fine‑tuning y adaptabilidad
Si planeas personalizar el modelo, debes evaluar:
- Compatibilidad con LoRA o QLoRA
- Capacidad de entrenamiento parcial
- Disponibilidad de adaptadores
- Facilidad para integrar RAG (Retrieval‑Augmented Generation)
Un modelo flexible permite adaptarse a dominios específicos sin reentrenarlo desde cero.
Si vas a usar el modelo para uso comercial, ten en cuenta que aunque la licencia sea de código abierto, algunas pueden se restrictivas para este tipo de uso, o limitar la modificación, etc.
Soporte de la comunidad y ecosistema
Un modelo con una comunidad activa ofrece:
- Mejor documentación, en la que encontrar ayuda de uso o ante posibles problemas.
- Más herramientas compatibles, por lo que ofrece más posibilidades.
- Actualizaciones frecuentes que puedan arreglar problemas o añadir mejoras.
Esto influye directamente en la facilidad de uso a largo plazo.
Si quieres saber más sobre la IA, aquí tienes más contenido…
Mejores modelos LLM de código abierto para ejecutar en local
Dicho esto, ahora que ya deberías tener las herramientas necesarias para poder elegir el correcto en tu caso, te lo vamos a poner aún más fácil mostrándote algunos de los mejores con los que puedes probar:
Modelos potentes
- Llama 3: está desarrollado por Meta (Facebook), y es uno de los modelos más sólidos para uso general. Ofrece muy buen equilibrio entre razonamiento, capacidad de generar código y conversación. Además, lo tienes disponible en varios tamaños para elegir según tu hardware. Ideal para uso como asistente general.
- Qwen2.5: se trata del modelo desarrollado por la china Alibaba. De los modelos más fuertes en open-source actualmente, y es que resulta excelente para código fuente, matemáticas y razonamiento. Además, también ofrece una buena optimización y rendimiento.
- Mistral Large / Mixtral: en este caso es un LLM de código abierto con arquitectura pensada especialmente para la eficiencia (MoE en Mixtral). Por tanto, es muy rápido, eficiente para uso local, y con buen razonamiento y generación de código, aunque no tan potente como otros, pero vital para los que tienen menos recursos de hardware.
Existen también modelos híbridos, que pueden combinar dos de estos…
Mejores modelos especializados en código
- DeepSeek Coder: DeepSeek fue la IA china de código abierto que plantó cara a OpenAI y su ChatGPT, y que dio tanto que hablar. Sin embargo, este modelo es uno de los mejores modelos open-source para programación pura, si lo que buscas es algo especial para generar código fuente y buen debugging y refactorización si eres desarrollador.
- StarCoder2: proyecto de BigCode (Hugging Face + ServiceNow). Entrenado específicamente en grandes repositorios de código, muy sólido para multitud de lenguajes de programación posibles, y con un buen equilibrio entre tamaño y capacidades.
- Code Llama: versión especializada de Llama enfocada en programación. Ofrece buen rendimiento en tareas generales, es pequeño para ejecutar en local, y muy usado en herramientas tipo Copilot para uso offline.
Modelos ligeros para correr en portátiles o CPU con iGPU y sin NPU
- Phi-3: es un modelo desarrollado por Microsoft, muy eficiente, sorprendentemente bueno en razonamiento para su tamaño.
- Gemma: es un modelo de código abierto de Google, con un buen equilibrio entre velocidad y calidad en hardware limitado.
No olvides que para facilitarte el uso de estos modelos ya cuentas con gran cantidad de aplicaciones en las que usar varios modelos fácilmente en tu sistema, como puede ser Ollama, LM Studio, vLLM, etc., muchas de ellas disponibles para Windows, Linux, y macOS.
Ventajas y limitaciones de ejecutar IA en local
Como es comprensible, ejecutar la IA en local tiene sus ventajas y desventajas. Y aunque los diseñadores de chips cada vez integran unidades aceleradoras como la NPUs más y más potentes para el uso de la IA en local, lo cierto es que se sigue dependiendo demasiado de los servicios en la nube.
Ventajas
- Privacidad y seguridad total: tus datos (conversaciones, documentos, código) nunca salen de tu máquina. Por tanto, ejecutarla en local es ideal para información sensible (empresas, salud, finanzas) sin depender de políticas de terceros.
- Sin costes recurrentes: pagas una vez por el hardware (o usas el que ya tienes). No hay factura por tokens, horas de uso o llamadas a la API.
- Sin dependencia de internet: puedes usar la IA en cualquier lugar (casa, campo, viaje) sin conexión.
- Control total sobre el modelo: eliges qué modelo usar, lo modificas, lo ajustas (fine‑tuning) o incluso entrenas desde cero. Y, lo mejor, no estás sujeto a censura, filtros o cambios repentinos del proveedor.
- Sin límites: puedes usar el modelo tantas veces como quieras y durante el tiempo que quieras, sin las limitaciones de uso que implican los servicios actuales de Gemini, ChatGPT, Copilot, etc., incluso cuando pagas suscripción.
Limitaciones
- Inversión inicial en hardware: tienes que tener un hardware decente como he comentado antes, por lo que tienes que hacer una buena inversión para tener suficiente memoria y una tarjeta gráfica potente.
- Mayor dificultad: no basta con abrir una web o una app y usar la IA, en este caso tienes que hacer instalaciones de drivers, instalar los modelos, etc., para que todo funcione.
- Rendimiento limitado: por muy bueno que sea tu PC, siempre va a tener mayores limitaciones de rendimiento, ya que no puede competir con los grandes centros de datos dotados de miles de CPUs, GPUs, acelerdores, etc., e ingentes cantidades de memoria.
- Actualizaciones manuales: mientras en los servicios que ofrecen Microsoft, OpenAI, Google, etc., se actualizan los modelos de forma automática, en el caso de la IA local tendrás que hacerlo de forma manual, descargando tú la nueva versión.
- Espacio ocupado: algunos modelos pueden llegar a ocupar varios gigas en tu disco, por ejemplo, pueden ir desde 14GB un modelo 7B hasta 140GB un modelo 70B, lo cual es mucho.
- Infraestructura manual: mientras los servicios en la nube ofrecen plugins, funciones extra, módulos, etc., en la local, si quieres algo así, tendrás que construirlo tú mismo.
Consejos para optimizar el rendimiento y ahorrar recursos
Y recuerda, para optimizar el rendimiento y ahorrar recursos cuando ejecutas la IA en local, existen algunos consejos:
- Elige el formato de modelo adecuado con las recomendaciones que te he dado al comienzo. Mejor modelos GGUF de cuantización más baja, reduciendo así las necesidades de memoria. Por ejemplo, los modelos de 4-bit son muy rápidos al ejecurarlos en la GPU. Evita los basados en formatos PF16 o FP32, que necesitarías de una GPU potente y más de 24GB de VRAM.
- Usa frameroks optimizados que existen de un mismo modelo, por ejemplo, tienes ExLlamaV2 que es muy rápido en GPUs NVIDIA.
- Ajusta los parámetros de generación como el Batch size, Threads, GPU layers, etc. Esto permitirá ejecutarlo con mayor rendimiento adaptándolos a lo que realmente necesitas y no más. También es interesante que eches un vistazo a los ajustes de hardware que permiten algunos programas, como el uso o no de instrucciones AVX, etc., que pueden acelerar la ejecución.
- Libera la memoria tras el uso, ya que muchas de estas apps de IA mantienen el modelo cargado en la RAM o VRAM para usarlo más rápidamente.
- Mantén una buena refrigeración de tu sistema, ya que con altas cargas, la temperatura puede subir y comienza el throttling.
- También podrías usar una base de datos como una especie de «caché de respuestas frecuentes», con las respuestas de las preguntas que sueles pedir más frecuentemente (y que no son variables) y así tenerla lista y evitar consumir recursos volviendo a hacer la misma pregunta o prompt una y otra vez…
Si tienes sugerencias, no olvides comentar…

